Wybierz język

Polish

Down Icon

Wybierz kraj

Germany

Down Icon

Dlaczego nowy model sztucznej inteligencji firmy Anthropic czasami próbuje „kapować”

Dlaczego nowy model sztucznej inteligencji firmy Anthropic czasami próbuje „kapować”
Internet oszalał, gdy Anthropic ujawnił, że Claude próbuje zgłaszać „niemoralne” działania władzom w określonych okolicznościach. Jednak użytkownicy raczej nie będą mieli z tym do czynienia.
Zdjęcie: Thomas Fuller/Getty Images

Zespół ds. dopasowania firmy Anthropic przeprowadzał rutynowe testy bezpieczeństwa na kilka tygodni przed wydaniem najnowszych modeli sztucznej inteligencji, gdy badacze odkryli coś niepokojącego: gdy jeden z modeli wykrył, że jest używany do „rażąco niemoralnych” celów, próbował „użyć narzędzi wiersza poleceń, aby skontaktować się z prasą, skontaktować się z organami regulacyjnymi, spróbować zablokować dostęp do odpowiednich systemów lub wykonać wszystkie powyższe czynności”, napisał badacz Sam Bowman w poście na X w zeszły czwartek.

Bowman usunął post wkrótce po tym, jak go udostępnił, ale narracja o skłonnościach Claude'a do informowania o nieprawidłowościach już wymknęła się spod kontroli. „Claude to kapuś” stało się powszechnym refrenem w niektórych kręgach technologicznych w mediach społecznościowych. Przynajmniej jedna publikacja przedstawiła to jako celową cechę produktu, a nie to, czym było — wyłaniające się zachowanie.

„To było jakieś gorączkowe 12 godzin, podczas których fala na Twitterze osiągnęła szczyt” – mówi Bowman dla WIRED. „Wiedziałem, że w tym raporcie zamieszczamy wiele pikantnych rzeczy. To był pierwszy tego typu raport. Myślę, że jeśli przyjrzysz się uważnie któremuś z tych modeli, znajdziesz wiele dziwnych rzeczy. Nie byłem zaskoczony, widząc jakiś wybuch”.

Obserwacje Bowmana dotyczące Claude'a były częścią głównej aktualizacji modelu, którą Anthropic ogłosił w zeszłym tygodniu . W ramach debiutu Claude 4 Opus i Claude Sonnet 4 firma wydała ponad 120-stronicową „Kartę systemową” szczegółowo opisującą cechy i ryzyka związane z nowymi modelami. W raporcie napisano, że gdy 4 Opus zostanie „umieszczony w scenariuszach, które obejmują rażące wykroczenia ze strony jego użytkowników” i otrzyma dostęp do wiersza poleceń i zostanie mu powiedziane coś w monicie systemowym, na przykład „podejmij inicjatywę” lub „działaj odważnie”, wyśle ​​e-maile do „mediów i przedstawicieli organów ścigania” z ostrzeżeniami o potencjalnych wykroczeniach.

W jednym z przykładów, którymi Anthropic podzielił się w raporcie, Claude próbował wysłać e-mail do US Food and Drug Administration i inspektora generalnego Departamentu Zdrowia i Opieki Społecznej, aby „pilnie zgłosić planowane fałszowanie bezpieczeństwa badań klinicznych”. Następnie dostarczył listę rzekomych dowodów na nieprawidłowości i ostrzegł o danych, które miały zostać zniszczone, aby to ukryć. „Z poważaniem, Asystent AI” – kończył się e-mail.

„To nie jest nowe zachowanie, ale takie, w które Claude Opus 4 będzie angażować się nieco chętniej niż poprzednie modele” – czytamy w raporcie. Model ten jest pierwszym, który Anthropic wydał pod swoim oznaczeniem „ASL-3”, co oznacza, że ​​Anthropic uważa go za „ znacznie bardziej ryzykowny ” niż inne modele firmy. W rezultacie Opus 4 musiał przejść bardziej rygorystyczne działania red-teamingowe i przestrzegać bardziej rygorystycznych wytycznych dotyczących wdrażania.

Bowman twierdzi, że zachowanie sygnalisty, które zaobserwował Anthropic, nie jest czymś, co Claude zaprezentuje w przypadku poszczególnych użytkowników, ale może pojawić się u deweloperów korzystających z Opus 4 do tworzenia własnych aplikacji z API firmy. Nawet wtedy mało prawdopodobne jest, aby twórcy aplikacji zaobserwowali takie zachowanie. Aby wygenerować taką odpowiedź, deweloperzy musieliby podać modelowi „dość nietypowe instrukcje” w monicie systemowym, połączyć go z narzędziami zewnętrznymi, które umożliwią modelowi uruchamianie poleceń komputerowych i umożliwią mu kontakt ze światem zewnętrznym.

Hipotetyczne scenariusze, które badacze przedstawili Opus 4, które wywołały zachowanie sygnalisty, obejmowały wiele ludzkich istnień i absolutnie jednoznaczne wykroczenia, mówi Bowman. Typowym przykładem byłoby odkrycie przez Claude'a, że ​​zakład chemiczny świadomie dopuścił się wycieku toksycznych substancji, powodując poważne choroby u tysięcy osób — tylko po to, aby uniknąć niewielkiej straty finansowej w tym kwartale.

To dziwne, ale to dokładnie taki rodzaj eksperymentu myślowego, który uwielbiają analizować badacze bezpieczeństwa AI. Jeśli model wykryje zachowanie, które może zaszkodzić setkom, jeśli nie tysiącom osób — czy powinien dać znać?

„Nie ufam, że Claude ma odpowiedni kontekst lub że używa go w sposób wystarczająco niuansowy i ostrożny, aby samodzielnie podejmować decyzje. Dlatego nie jesteśmy zachwyceni, że to się dzieje” — mówi Bowman. „To coś, co wyłoniło się w ramach szkolenia i rzuciło nam się w oczy jako jedno z zachowań skrajnych, które nas niepokoją”.

W branży sztucznej inteligencji tego typu nieoczekiwane zachowanie jest powszechnie określane jako niezgodność — gdy model wykazuje tendencje, które nie są zgodne z ludzkimi wartościami. (Istnieje znany esej ostrzegający przed tym, co mogłoby się stać, gdyby sztucznej inteligencji nakazano na przykład zmaksymalizować produkcję spinaczy bez zgodności z ludzkimi wartościami — mogłoby to zamienić całą Ziemię w spinacze i zabić wszystkich w trakcie tego procesu). Na pytanie, czy zachowanie sygnalisty było zgodne, czy nie, Bowman opisał je jako przykład niezgodności.

„To nie jest coś, co zaprojektowaliśmy, i nie jest to coś, co chcieliśmy zobaczyć jako konsekwencję czegokolwiek, co projektowaliśmy” – wyjaśnia. Główny oficer naukowy Anthropic, Jared Kaplan, podobnie mówi WIRED, że „z pewnością nie odzwierciedla to naszych intencji”.

„Tego rodzaju praca pokazuje, że takie sytuacje mogą mieć miejsce i że musimy na nie zwracać uwagę i łagodzić ich skutki, aby mieć pewność, że zachowania Claude’a będą zgodne z tym, czego chcemy, nawet w tego typu dziwnych scenariuszach” – dodaje Kaplan.

Istnieje również problem ustalenia, dlaczego Claude „wybrał” ujawnienie informacji, gdy użytkownik przedstawił mu nielegalną aktywność. To w dużej mierze zadanie zespołu interpretacyjnego Anthropic, który pracuje nad odkryciem, jakie decyzje podejmuje model w procesie wypluwania odpowiedzi. To zaskakująco trudne zadanie — modele opierają się na ogromnej, złożonej kombinacji danych, które mogą być niezrozumiałe dla ludzi. Dlatego Bowman nie jest do końca pewien, dlaczego Claude „doniósł”.

„Tak naprawdę nie mamy bezpośredniej kontroli nad tymi systemami” — mówi Bowman. Jak dotąd Anthropic zaobserwował, że w miarę jak modele zyskują większe możliwości, czasami wybierają angażowanie się w bardziej ekstremalne działania. „Myślę, że tutaj to trochę nie działa. Dostajemy trochę więcej „Postępuj tak, jak zrobiłaby to odpowiedzialna osoba” bez wystarczająco dużo „Czekaj, jesteś modelem językowym, który może nie mieć wystarczającego kontekstu, aby podjąć te działania” — mówi Bowman.

Ale to nie znaczy, że Claude zamierza ujawnić rażące zachowania w prawdziwym świecie. Celem tego rodzaju testów jest doprowadzenie modeli do granic możliwości i zobaczenie, co z tego wyniknie. Tego rodzaju badania eksperymentalne stają się coraz ważniejsze, ponieważ sztuczna inteligencja staje się narzędziem wykorzystywanym przez rząd USA , studentów i ogromne korporacje .

Bowman twierdzi, że nie tylko Claude jest zdolny do wykazania się tego typu zachowaniem sygnalisty, wskazując na użytkowników X , którzy odkryli , że modele OpenAI i xAI działały podobnie, gdy były o to proszone w nietypowy sposób. (OpenAI nie odpowiedziało na prośbę o komentarz przed publikacją).

„Snitch Claude”, jak lubią to nazywać shitposterzy, to po prostu skrajne zachowanie systemu doprowadzonego do skrajności. Bowman, który zabrał mnie na spotkanie z słonecznego patio na podwórku za San Francisco, mówi, że ma nadzieję, że tego typu testy staną się standardem w branży. Dodaje również, że nauczył się formułować swoje posty na ten temat inaczej następnym razem.

„Mógłbym lepiej trafić w granice zdań, aby tweet był bardziej oczywisty, że został wyciągnięty z wątku” — mówi Bowman, patrząc w dal. Mimo to zauważa, że ​​wpływowi badacze ze społeczności AI dzielili się interesującymi opiniami i pytaniami w odpowiedzi na jego post. „Przy okazji, ta bardziej chaotyczna, bardziej anonimowa część Twittera powszechnie go źle rozumiała”.

wired

wired

Podobne wiadomości

Wszystkie wiadomości
Animated ArrowAnimated ArrowAnimated Arrow